HN
Hacker News • 4일 전
IMP 8
언어 모델도 수면이 필요하다
최근 트랜스포머 기반 대형 언어 모델(LLM)은 문맥 길이가 길어질수록 어텐션 메커니즘의 연산 효율이 급격히 떨어지는 한계를 보입니다. 이를 해결하기 위해 본 논문은 인간의 '수면'과 유사한 통합 메커니즘을 제안하여, 모델이 최근 문맥을 영구적인 빠른 가중치(fast weights)로 변환하고 기존의 키-값 캐시를 초기화하는 방식을 도입했습니다. 기존 모델들이 실패한 복잡한 수학적 추론 작업에서도 이 방법론이 뛰어난 성능 향상을 보여주며, 깊은 추론이 필요한 문제일수록 효과가 극대화된다는 점이 핵심적인 성과입니다.
대형 언어 모델 트랜스포머 컨텍스트 윈도우